[Day 8] Step 5. 監控模型表現（Monitor Impact）

2024 iThome 鐵人賽

DAY 8

AI/ ML & Data

從點子構想到部署上線：機器學習專案的一生系列第 8 篇

16th鐵人賽

Min

2024-09-22 12:01:15

244 瀏覽

分享至

終於走到整個機器學習專案的最後一步啦！我們訓練出一個表現優秀的模型，也成功將模型部署上線，並實際開始運行。不過，這並不代表我們的工作已經結束了，監控模型的表現和影響是機器學習專案中一個十分關鍵、卻經常被忽視的部分。

如同前一天提到的，當模型在真實環境中面臨各種不同的輸入資料時，可能會出現資料漂移（Data Drift）或概念漂移（Concept Drift）。由於隨著時間推移，訓練資料和實際運行資料之間的差異會逐漸擴大，導致預測準確性下降，因此需要定期監控並進行維護。

監控與維護系統

為了確保模型持續有效運行，系統必須設計完善的監控機制，並根據監控指標（Metrics）來檢測資料分佈的變化，從而決定模型是否需要重新訓練。

監控的指標：

伺服器負載（Server Load）
例如 CPU 和 GPU 的使用率、記憶體占用率和網路流量等。伺服器負載過高可能會導致系統延遲，影響模型的預測速度，因此應該將這些指標應納入監控系統。

資料異常檢測
如缺失值的比例、資料分佈的變化（如統計特性變化），或是某些重要指標（如平均值、標準差等）的變化速度，若有異常可能代表資料漂移（data drift）的發生，提醒我們需要更新或調整現有模型。

用戶行為的指標
根據這個模型提供的功能，追蹤用戶的使用方式和次數，可以藉此識別出模型的問題區域。
舉例來說，Netflix 希望可以在首頁陳列用戶最想要觀看的影片，但是如果用戶不斷地切到搜尋系統，自行手動輸入想要觀賞的影片，可能反應出推薦系統模型的預測不準確。

模型老化（Model Staleness）和重新訓練

除了前一天介紹過的資料漂移和概念漂移，模型老化也是一個常見問題。隨著時間推移，模型基於舊資料訓練的邏輯可能會變得不合時宜，模型預測結果的準確性持續下降，但並沒有顯著的資料漂移或概念漂移。

此時，可能就需要考慮重新訓練模型，或是直接使用新模型以取而代之。

模型重新訓練的方式

當我們藉由監控系統發現模型表現下降或出現嚴重偏差時，會依照使用場景的不同，可能需要進行手動重新訓練或自動重新訓練。

手動重新訓練
在一些比較謹慎的應用領域，如金融或醫療，模型更新通常需要經過嚴格的驗證。當發現模型表現不如從前時，可以先分析問題，調整資料特徵，或是模型演算法，進行手動重新訓練。手動重新訓練可以更精確地控制模型更新過程，確保在真實環境中的可靠性。

自動重新訓練
在一些需求變化較快的應用場域中，可以設計自動化的重新訓練流程，當系統檢測到資料漂移或概念漂移超出某個門檻時，自動觸發重新訓練。例如，可以設置一個監控指標（如準確率），當其低於某個預設值時，系統會自動抓取新的資料，並重新訓練模型。這種方式可以節省大量的人力成本，但是需要在設計上進行更多風險管理和評估。

混合策略
以上兩種策略也可以混合使用。例如，可以設置一個自動觸發的重新訓練流程，但是在模型真的更新到 production 環境之前，還是需要經過人為的審核過程，確保更新不會對系統造成負面影響。

我們終於把五個步驟都講完啦 🥳 希望大家多少有更了解在業界做機器學習的產品時，除了模型的性能表現以外，有很多其他需要注意的細節。
明天我們會聊一下 model iteration 和 data iteration 的差別，別忘了明天再回來哦！